La base de datos proporcionada tiene un espacio temporal que data desde el 2010 hasta enero de 2024.
Fuente: Dirección de Investigación Criminal e Interpol (DIJIN) - Policía Nacional de Colombia.
Se realiza la exploracion de las dimensiones de la base de datos evidenciando que esta cuenta con:
Filas: 75152 Columnas: 9
Se debe corrigir el tipo de las columnas FECHA HECHO y CANTIDAD, dado a que éstas son de tipo Date y Número, luego de aplicar los cambios se observa:
Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:
## DEPARTAMENTO MUNICIPIO CODIGO DANE
## 0 0 0
## ARMAS MEDIOS FECHA HECHO GENERO
## 0 0 0
## GRUPO ETARÍO DESCRIPCIÓN CONDUCTA CANTIDAD
## 0 0 0
Clara mente se observa que no existen valos nulos o vacios en ninguna de las variables.
Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## DEPARTAMENTO MUNICIPIO CODIGO DANE ARMAS MEDIOS FECHA HECHO GENERO
## 75152 1 1 1 1 1 1
## 0 0 0 0 0 0
## GRUPO ETARÍO DESCRIPCIÓN CONDUCTA CANTIDAD
## 75152 1 1 1 0
## 0 0 0 0
Clara mente se observa que no existen valores nulos o vacios en ninguna de las variables.
A continuacion se muestra un resumen de los estadisticos basicos de nuestra variable CANTIDAD:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.105 1.000 16.000
A continuacion presentamos un resumen de los estadisticos de los homicidios totales de la serie de tiempo luego de realizar la transformacion de los datos:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 174.0 397.0 449.0 491.5 526.0 1264.0
Dado a que es una serie de tiempo solo tendremos en cuenta la construcción de una base que contenga las variables FECHA HECHO y CANTIDAD para el analisis a realizar, de igualmanera se determinan los siguientes parametros:
adicionalmente se resaliza la verificacion de la clase de la serie de tiempo:
Luego de analizar los resultados se evidencia que en el mes de abril hay mayor numero de homicidios, adicionalmente se evidencia que la media de los meses se encuentra entre los 400 y 500 homicidios.
En 7 meses se observan unos valores atipicos que superan los 1000 homicidios y uno en el que se presentaron menos de 200, seria de gran valor hacer un analisis detallado de estos datos con el objetivo de entender mejor la naturaleza de estos resultados.
Para el caso de la grafica de rezagos se puede afirmar que no existe aleatoriedad, debido a que no se reflejan patrones identificables en los datos.
A continuacion se realiza el calculo de las medias moviles (SMA y EMA) de la serie de datos con el objetivo de obtener de forma mas clara el comportamiento de nuestra serie.
Durante los últimos 13 años, los homicidios en Colombia han
experimentado un aumento gradual. Las medias móviles de 12 meses
muestran que en 2010 había entre 230 y 240 asesinatos, comparados con
1000 a 850 asesinatos en los últimos meses de 2023 y enero de 2024,
quintuplicando así las cifras de este fenómeno en el país. Se observa
una tendencia a la baja al finalizar el primer semestre de cada año,
seguido por un aumento durante los últimos meses, adicionalmente, se
identifican dos períodos de fluctuaciones significativas:
Una baja notable al comienzo de la pandemia en 2020, dada la crisis sanitaria provocada por el COVID y la política de aislamiento social
Un aumento sostenido en casi todo 2023, este comportamiento podria estar asociados a aumentos de bandas criminales y grupos armados como efecto de los cambios politicos que se generaron con el actual gobierno en materia de seguridad.
En cuanto a las líneas móviles exponenciales versus las simples, aunque no coinciden exactamente en su posición, sí lo hacen en cuanto a su tendencia, siendo la línea simple más suavizada que la exponencial.
En congruencia con las medias móviles, se observa que la cantidad de
homicidios no supera los 375 casos mensuales mensuales antes del 2020,
sin embargo en el los periodos posteriores como en el 2023 se observa
que se alcanzan valores tope hasta de 1000 muertes mesuales en el país a
causa de los homicidios.
A continuacion realizaremos algunas transformaciones que nos permitiran detallar mucho mejor el analisis de nuestra serie de tiempo.
Acorde a la tendencia el comportamiento de los homicidios es lineal
durante los años 2010 y 2020. Posteriormente, se vuelve creciente hasta
finales del 2023.
##
## Augmented Dickey-Fuller Test
##
## data: df_ts
## Dickey-Fuller = -4.1312, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary
Dado que el p-value es menor al nivel de significancia de 0.05 se acepta la hipotesis alternativa de que la serie sí es estacionaria
Se evidencian picos en la mayoría de los años principalmente en los meses de febrero, abril, junio y octubre, a excepción de 2023; a diferencia de los meses mayo, septiembre y noviembre, don de la cantidad de hpmicidios disminuye.
Dado a que en los modelos de series de tiempo se requiere tener en cuenta la estacionariedad, para una mejor modelización y capacidad predictiva se procede a obtener las diferencias para hallarla. En otras palabras, se realiza para la estructuración del modelo a realizar.
¿Cuántas diferencias se necesitan para hallar estacionariedad?
Despues de realizar el procedimiento de diferenciacion se llega a la conclusion que se solo se requieren 1 diferencias para identificar la estacionariedad.
A continuacion, se aplica una transformacion logaritmica a la serie de tiempo, esto se realiza para cumplir con el supuesto de que la serie tiene variabilidad constante, para una mayor estabilidad e interpretación de datos.
El realizar la autocorrelacion nos permite identificar un comportamiento estacionario con respecto al tiempo en la serie de tiempo.
Al identificar la estructura autorregresiva en la serie, se tiene que, se necesitan 3 rezagos para predecir el valor actual de la serie.
ARIMA(p,d,q); donde, p = rezagos, d = diferenciación, y q = orden media móvil
## Series: a_estacio
## ARIMA(3,0,0) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 mean
## -0.4229 -0.0919 -0.0989 0.0029
## s.e. 0.0767 0.0835 0.0819 0.0077
##
## sigma^2 = 0.02627: log likelihood = 69.26
## AIC=-128.51 AICc=-128.14 BIC=-112.89
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set -0.0001979727 0.160125 0.1040723 -Inf Inf 0.7027804 -0.006712491